Este documento contiene los instrucciones para el taller R para los de Letras ofrecido por la Facultad de Filosofía y Letras de la Universidad de Valladolid.
El objetivo de este taller es introducirse en el uso de R como herramienta para analizar datos textuales, pero ofrece información valiosa para cualquiera que quiera introducirse en R.
Este taller está dirigido a principiantes con el objetivo de mostrar cómo configurar una sesión de R en RStudio, cómo configurar proyectos en R y cómo realizar operaciones básicas usando R.
Los objetivos de este taller son:
Este taller es para principiantes. No es necesario saber nada de R, ni de lenguajes de programación.
Se ruega que todos los participantes traigan su propio ordenador con el software ya instalado. Al usar su propio ordenador, nos aseguramos de que tras el taller podrán continuar usando lo que se ha aprendido una vez haya finalizado el taller.
Durante el taller, se usará RSudio. RStudio es una excelente manera de manejar el lenguaje de programación R. Para usarlo, debes instalar tanto R como RStudio.
Por favor, sigue las instrucciones que hay a continuación para instalar R y RStudio y hazlo antes de acudir al taller. Asegúrate de que el software funciona como debe una vez instalado. ¡Te diremos cómo hacerlo!
Tiene un ordenador con Windows?
.exe que acabas de descargar (se
encuentra en la carpeta Descargas), y sigue sus
instruccionesR-4.4.2-win.exe (estará en la carpeta
Descargas), y sigue las instruccionesTienes un Mac?
.pkg que acabas de bajar (estará en
la carpeta Descargas), y sigue las instrucciones.dmg
(estará en la carpeta Descargas), y sigue las
instruccionesCuando arranques RStudio, verás que se abre una ventana que se aparece a la de esta imagen (el fondo será blanco y no negro —ya llegará el momento de tunearlo—):
RStudio es un IDE (Integrated Development Environment), una especie
de escritorio que facilita el acceso a R. La gran ventaja es de este
aplicativo es que se pueden gestionar con gran facilidad los
scripts de R, los ficheros y los directorios de los proyectos.
Este entorno de trabajo permite editar y ejecutar el código
(scripts), ver los resultados y los gráficos que dibuje. Es
más, se pueden ver las variables y los objetos que se están ejecutando
en la ventana Environment (más, más abajo 👇).
El escritorio de RStudio divide la pantalla en cuatro ventanas que llaman panes (o paneles):
Los dos más importantes son la Consola (parte inferior, izquierda) y el editor de ficheros (parte superior, izquierda). Los paneles del entorno (Global Environment) y gestión están en la parte de derecha y tienen varias pestañas:
La consola permite ejecutar inemdiatamente cualquier función o instrucción de R. Aquí puedes experimentar con las funciones, o, sencillamente, imprimir los datos para verlos.
Para usarlo hay que escribir la orden tras > y pulsar
⏎ para ejecutar la orden (el código) que se quiera que realice R.
PRIMER EJERCICIO
`
2+8 en la consola, como te muestro en la
imagen que hay a continuación, y pulsa ⏎.## [1] 10
En esta orden, el signo de adición + es el
operador. Los operadores son símbolos que representan
algún tipo de acción. R, sin embargo, es muchísimo más que una sencilla
calculadora. Para poderle sacar el máximo partido es necesario
comprender que son los objetos, las
funciones y los índices (el número que
aparece entre corchetes en los resultados que se imprimen en la
consola). Aprenderás cómo usarlos según avanzamos.
Por ahora, considera que los objetos son nombres y que las funciones son verbos.
La ventana del editor solo se abre si se le dice que se abra. Es muy
flexible puesto que permite moverte por el texto de un script,
y coloreará los diversos componentes de una expresión (orden o comando).
Te permite guardar el script, reutilizarlo o corregir los
errores sin tener que reescribir todo. La manera de abrir el editor es
haciendo clic en File
Ahora haz clic en New File y, por último, en
R Script, como te muestro en la siguiente imagen.
Este R Script es donde harás todo el trabajo de
programación.
scriptAl contrario que la consola que viste antes, que ejecuta el código
inmediatamente, el editor no lo hace tan pronto como se pulsa ⏎ (tan
solo pasará a la línea siguiente). Para conseguirlo, hay que situar el
cursor en la primera línea de un comando del script, y pulsar
simultáneamente CTRL/CMD+⏎ (CTRL en Windows;
CMD en Mac).
O se puede seleccionar todo el grupo de líneas de código que se
quieren ejecutar y se pulsan, a la vez, CTRL/CMD+⏎.
También se puede utilizar el boton Run que hay en la
parte superior derecha del editor. Tanto para ejecutar una sola línea de
código como todo un bloque (véase la siguiente imagen).
Esta sección introduce algunos conceptos y procedimientos básicos que te ayudarán a optimizar el flujo de trabajo en R.
Al comienzo de una sesión de trabajo, es bueno definir una serie de parámetros básicos. No es obligatorio, ni siquiera necesario, pero puede ser útil a lo largo del trabajo. En la preparación de una sesión de trabajo se pueden establecer una serie de opciones. En nuestro caso
queremos que R imprima los números como estamos acostumbrados (que no los presenten con notación científica, es decir, queremos ver 0.007 y no 0.7e-3, o 1000000 y no 1e6))
queremos que R muestre un máximo de 100 resultados (si no lo haces, es posible que R se pase un buen rato imprimendo ristras y ristras de números o palabras).
De nuevo, estos preparativos de sesión no son obligatorios ni necesarios, pero pueden ayudar a evitar errores (ya lo verás más abajo).
ATENCIÓN
Siempre que veas una caja gris como la que hay a
continiación, selecciona lo que haya en ella, córtalo y pégalo en el
editor de RStudio.
# establece opciones
options(stringsAsFactors = F)
options(scipen = 999)
options(max.print=100)
Al usar R, la mayoría de la funciones no están disponibles; es más, ni siquiera están instaladas en tu ordenador. La gran mayoría se encuentran en lo que se llaman packages o librerías.
Lo que has instalado de R es lo más básico (“base R”), trae consigo
unas 30 librerías. Pero existen más de 10.000 librarías creadas y
mantenidas por usuarios de todo el mundo; puedes saber de ellos y cómo
utilizarlas en la red. En cualquier caso, hay un conjunto de librerías
que es básico, pero que no está incluido en el base R. Se trata
de tidyverse, que incluye ggplot2, una
librería para dibujar magníficos gráficos y mapas.
Antes de poder usar una librería, hay que instalarla en el ordenador
(con la función install.packages()) y cargar en cada sesión
de trabajo (con la función library()) en la que se quiera
utilizar. Sin embargo, una librería (o paquete) solo se ha de instalar
una vez, y una vez instado solo hay que cargarlo en la sesión de trabajo
en la que sea necesario. Cuando se instala un paquete, es posible que se
instalen otros varios que le son impresicindibles para funcionar
adecuadamente. Cuando vengas al taller, debes tener instalado
tidyverse, tidytext, quanteda y
tm, de esta manera ahorraremos tiempo y problemas.
Recuerda que has de cargar las librerías en todas aquellas sesiones
de R en las que las quieras utilizar. A continuación te muestro qué has
de hacer para instalar las librerías tidyverse,
tidytext, quanteda y stopwords
(que son las que vamos a necesitar a lo largo de este taller). Corta y
pega estas líneas de código en el editor de RStudio y ejecútalas (más
atrás te conté cómo se hace).
install.packages("tidyverse")
install.packages("tidytext")
install.packages("quanteda")
install.packages("stopwords")
Se estará un buen rato, depende de tu conexión a internet, mostrándote un motón de información en la consola. En la imagen siguiente te muestro algo de lo que podrías ver mientras instalas las librería. Ten en cuenta que esta es de una, y todas las que le son necearias, que no vas a necesitar por ahora. Al final te informa de dónde ha guardado las librerías.
Para cargar los paquetes que has instalado, utiliza la función
library, cuyo argumento, que se encierra entre los
paréntesis, es el nombre de la librería.
library(tidyverse)
library(tidytext)
library(quanteda)
library(stopwords)
La sección de preparación de la sesión de trabajo de cualquier script de R debe indicar, y cargar, todas las librerías que se van a utilizar, puede ahorrarte algún que otro quebradero de cabeza.
Los bloques de código que sirven para instalar y cargar las librerías que necesitarás deberían tener el mismo aspecto que lo que hay en la siguiente imagen:
Las líneas que comienzan con # y que están impresas en azul (a ti te aparecerán en verde) son comentarios. Son muy útiles para recordarte qué es lo que una línea o conjunto de líneas de código hace. (Las línea onduladas que ves no quieren decir nada, es algo del corrector ortográfico de Rstudio, que desconoce el español. No debe preocuparte.)
Fíjate que justo encima de la primera línea hay un triágulo amarillo. Es un aviso que me advierte de que el código, el script que tengo en el editor hace uso de una librería, llamada tm, que no tengo instalada. Me facilita el trabajo al recordarme que no la tengo aún en mi sistema y me da la posibilidad de instalarla con un sencillo clic.
Cuando trabajes con R te encontrarás problemas y te enfrentarás con retos que no sabrás cómo resolver. Una cosa excelente de R es que hay varias maneras para obtener ayuda o localizar información acerca de los problemas con los que te puedas tropezar.
Para acceder a la ayuda sobre las funciones que hay en cada librería,
qué argumentos deben incluirse en una función o cómo usarlas, puedes
usar la instrucción help() o sencillamente teclear una
? antes del nombre de la librería o función de las que
quieres saber más. Si ejecutas cualquiera de estas dos instrucciones en
la consola, la respuesta aparecerá en la pestaña Help
del panel inferior derecho.
help(library)
?library
Tanto R como RStudio tienen otras fuentes “oficiales” de ayuda:
Puedes leer la documentación y vignettes de una
librería, p. ej, la de Tidyverse https://cran.r-project.org/package=tidyverse
Puedes usar las chuletas de RStudio; las tienes en https://www.rstudio.com/resources/cheatsheets/
Échale una ojeada al Keyboard Shortcuts Help en la
pestaña Tools del menú superior de RStudio, ahí puedes
encontrar algunos trucos interesantes.
Otra de las grandes ventajas de R es que puedes encontrar la solución a tus preguntas y problemas en la red. R-bloggers y Stackoverflow son sitios magníficos para localizar trucos y ayuda (a veces puede parecer que la han escrito marcianos).
Desde el aparición de la IA generativa del tipo ChatGPT o
Copilot, se puede recurrir a ella para que te ayude a solucionar un
problema en un script. Al reescibir partes del código de este
taller, recuperé un script que me dio un error y no sabía cuál
era. Había escrito ese código hace varios años y no lo documenté
adecuadamente con #. Copilot, en segundos, me dijo dónde
estaba el error. ¡Había olvidado cargar una librería!
NOTE
Este R Notebook se basa en tutoriales de Ladal, Programming
Historian y CuentaPalabras.
A
los interesados en la lingüística y cómo analizarla con la ayuda de R,
les recomiendo vivamente los tutoriales de Ladal.